Spectral clustering is an effective methodology for unsupervised learning. Most traditional spectral clustering algorithms involve a separate two-step procedure and apply the transformed new representations for the final clustering results. Recently, much progress has been made to utilize the non-negative feature property in real-world data and to jointly learn the representation and clustering results. However, to our knowledge, no previous work considers a unified model that incorporates the important multi-view information with those properties, which severely limits the performance of existing methods. In this paper, we formulate a novel clustering model, which exploits the non-negative feature property and, more importantly, incorporates the multi-view information into a unified joint learning framework: the unified multi-view orthonormal non-negative graph based clustering framework (Umv-ONGC). Then, we derive an effective three-stage iterative solution for the proposed model and provide analytic solutions for the three sub-problems from the three stages. We also explore, for the first time, the multi-model non-negative graph-based approach to clustering data based on deep features. Extensive experiments on three benchmark data sets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
由顺序训练和元训练阶段组成的两阶段训练范式已广泛用于当前的几次学习(FSL)研究。这些方法中的许多方法都使用自我监督的学习和对比度学习来实现新的最新结果。但是,在FSL培训范式的两个阶段,对比度学习的潜力仍未得到充分利用。在本文中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习无缝地整合到两个阶段中,以提高少量分类的性能。在预训练阶段,我们提出了特征向量与特征映射和特征映射与特征映射的形式的自我监督对比损失,该图形与特征映射使用全局和本地信息来学习良好的初始表示形式。在元训练阶段,我们提出了一种跨视图的情节训练机制,以对同一情节的两个不同视图进行最近的质心分类,并采用基于它们的距离尺度对比度损失。这两种策略迫使模型克服观点之间的偏见并促进表示形式的可转让性。在三个基准数据集上进行的广泛实验表明,我们的方法可以实现竞争成果。
translated by 谷歌翻译
现有的视频域改编(DA)方法需要存储视频帧的所有时间组合或配对源和目标视频,这些视频和目标视频成本昂贵,无法扩展到长时间的视频。为了解决这些局限性,我们建议采用以下记忆高效的基于图形的视频DA方法。首先,我们的方法模型每个源或目标视频通过图:节点表示视频帧和边缘表示帧之间的时间或视觉相似性关系。我们使用图形注意力网络来了解单个帧的重量,并同时将源和目标视频对齐到域不变的图形特征空间中。我们的方法没有存储大量的子视频,而是仅构建一个图形,其中一个视频的图形注意机制,从而大大降低了内存成本。广泛的实验表明,与最先进的方法相比,我们在降低内存成本的同时取得了卓越的性能。
translated by 谷歌翻译
图像恢复算法(例如超级分辨率(SR))是低质量图像中对象检测的必不可少的预处理模块。这些算法中的大多数假定降解是固定的,并且已知先验。但是,实际上,实际降解或最佳的上采样率是未知或与假设不同的,导致预处理模块和随之而来的高级任务(例如对象检测)的性能恶化。在这里,我们提出了一个新颖的自我监督框架,以检测低分辨率图像降解的对象。我们利用下采样降解作为一种自我监督信号的一种转换,以探索针对各种分辨率和其他退化条件的模棱两可的表示。自我设计(AERIS)框架中的自动编码分辨率可以进一步利用高级SR体系结构,并使用任意分辨率恢复解码器,以从退化的输入图像中重建原始对应关系。表示学习和对象检测均以端到端的培训方式共同优化。通用AERIS框架可以在具有不同骨架的各种主流对象检测架构上实现。广泛的实验表明,与现有方法相比,我们的方法在面对变化降解情况时取得了卓越的性能。代码将在https://github.com/cuiziteng/eccv_aeris上发布。
translated by 谷歌翻译
图像恢复算法(如超分辨率(SR)都是用于在劣化图像中的对象检测的必不可少的预处理模块。然而,大多数这些算法假设劣化是固定的并且已知先验。当真实劣化未知或与假设不同时,预处理模块和随后的高级任务(如对象检测)将失败。在这里,我们提出了一种新颖的框架,重新定位,以检测降低的低分辨率图像中的对象。 Restoredet利用下采样的降级作为自我监督信号的一种转换,以探索针对各种分辨率和其他降级条件的等分性表示。具体地,我们通过从一对原始和随机降级的图像编码和解码劣化转换来学习这种内在视觉结构。该框架可以进一步利用先进的SR架构的优点,该架构具有任意分辨率还原解码器以重建来自劣化的输入图像的原始对应关系。代表学习和对象检测都以端到端的培训方式共同优化。 Restoredet是一个通用框架,可以在任何主流对象检测架构上实现。广泛的实验表明,与在面对变体退化情况时,我们基于Centernet的框架已经实现了卓越的性能。我们的代码即将发布。
translated by 谷歌翻译
人的凝视是一种成本效益的生理数据,揭示了人类的潜在注意力模式。选择性注意机制有助于通过忽略分散剂的存在,帮助认知系统专注于任务相关的视觉线索。由于这种能力,人类可以有效地从一个非常有限数量的训练样本中学习。灵感来自这种机制,我们旨在利用具有小型训练数据的医学图像分析任务的凝视。我们所提出的框架包括骨干编码器和选择性注意网络(SAN),用于模拟潜在的注意力。 SAN通过估计实际的人的凝视,隐含地编码与医学诊断任务相关的可疑区域。然后我们设计一种新颖的辅助注意力块(AAB),以允许从骨干编码器使用SAN的信息,以专注于选择性区域。具体而言,该块使用多针注意层的修改版本来模拟人类视觉搜索过程。请注意,SAN和AAB可以插入不同的底部,并且在配备有任务特定的头部时,该框架可用于多个医学图像分析任务。我们的方法经过证明在3D肿瘤分割和2D胸X射线分类任务中实现了卓越的性能。我们还表明,SAN的估计凝视概率图与由董事会认证的医生获得的实际凝视固定图一致。
translated by 谷歌翻译
在本文中,我们专注于人群本地化任务,这是人群分析的关键主题。大多数基于回归的方法都利用卷积神经网络(CNN)回归密度图,该密度图无法准确地定位在极度密集的场景中,这两个至关重要的原因是:1)密度图由一系列模糊的高斯斑点组成,2)密度图的致密区域中存在严重的重叠。为了解决这个问题,我们为人群本地化任务提出了一个新颖的焦点反向变换(FIDT)图。与密度图相比,FIDT地图准确地描述了人们的位置,而不会在密集区域重叠。基于FIDT地图,得出了局部Maxima-detection-Strategy(LMDS),以有效地为每个人提取中心点。此外,我们引入了独立的SSIM(I-SSIM)损失,以使模型倾向于学习局部结构信息,从而更好地识别局部最大值。广泛的实验表明,提出的方法报告在六个人群数据集和一个车辆数据集上的最先进的本地化性能。此外,我们发现所提出的方法在负面和极密密集的场景上显示出优异的鲁棒性,这进一步验证了FIDT地图的有效性。该代码和模型将在https://github.com/dk-liang/fidtm上找到。
translated by 谷歌翻译
Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.
translated by 谷歌翻译
Faced with the threat of identity leakage during voice data publishing, users are engaged in a privacy-utility dilemma when enjoying convenient voice services. Existing studies employ direct modification or text-based re-synthesis to de-identify users' voices, but resulting in inconsistent audibility in the presence of human participants. In this paper, we propose a voice de-identification system, which uses adversarial examples to balance the privacy and utility of voice services. Instead of typical additive examples inducing perceivable distortions, we design a novel convolutional adversarial example that modulates perturbations into real-world room impulse responses. Benefit from this, our system could preserve user identity from exposure by Automatic Speaker Identification (ASI) while remaining the voice perceptual quality for non-intrusive de-identification. Moreover, our system learns a compact speaker distribution through a conditional variational auto-encoder to sample diverse target embeddings on demand. Combining diverse target generation and input-specific perturbation construction, our system enables any-to-any identify transformation for adaptive de-identification. Experimental results show that our system could achieve 98% and 79% successful de-identification on mainstream ASIs and commercial systems with an objective Mel cepstral distortion of 4.31dB and a subjective mean opinion score of 4.48.
translated by 谷歌翻译
深度神经网络(DNN)已在脑病变检测和分割中广泛采用。但是,在2D MRI切片中定位小病变是具有挑战性的,需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中,我们提出了一种新型的视角变压器,以增强MRI特征的提取,以进行更准确的肿瘤检测。首先,所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次,变压器将一堆切片功能堆叠为多个2D视图,并增强这些特征的视图,该功能大致以有效的方式实现了3D相关计算。第三,我们将提出的变压器模块部署在变压器主链中,该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明,我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。
translated by 谷歌翻译